Scalling law(Kaplan et al., 2020)
@bioshok3: 今まで何で大規模言語モデルなんて2020年からあったのに2022年になって何でまた盛んに話題になったんだろう、と若干腑に落ちてなかったが、そうか、2022年からCoTが出てきていきなり精度が上がり(引用者注:Emergent Ability:データをデカくすると突然性能が良くなる (2022))、その原因として「コード学習」があるかもという考察が以下の引用記事でOpenAIは千人コーダー雇ってると
https://pbs.twimg.com/media/Fn8SP_hakAISYoZ.jpg
横軸と縦軸なんなの?
横軸はパラメータ数だろう
[2001.08361] Scaling Laws for Neural Language Models
2020
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei
Gemini 3.0.iconモデルが大きくなるほど「次にくる単語を当てる」という基本タスクが正確になる